Карань Анна |
|||
Главная | О себе | Учеба | ФББ МГУ |
Предсказание генов эукариот
Задание 1
В этом задании необходимо описать выданный контиг и один из генов на нем, для которого предсказан альтернативный сплайсинг. Мне выдан контиг NW_010729237.
Последовательность контига: cont.fasta. Контиг принадлежит Nelumbo nucifera, Лотосу орехоносному.
Рис.2. Фото Nelumbo nucifera
Всего 28 генов по аннотации NCBI, 41 CDS, 10 misc_RNA. Длина гена, выбранного на Рис.1., равна 53553.
Задание 2
В этом задании необходимо предсказать гены и белок-кодирующие области в выданном контиге с помощью web-сервера AUGUSTUS.
Результаты, выданные Augustus. prediction.tar.gz - архив со всеми файлами. augustus.aa - трансляции предсказанных генов в формате .fasta augustus.gff - предсказания генов в формате .gff augustus.gtf - предсказания генов в формате .gtf augustus.mrna - предсказанные мРНК в формате .fasta augustus.cdsexons - предсказанные экзоны в формате .fasta augustus.gbrowse - координаты найденных генов, мРНК и т.д. |
Далее надо сравнить предсказанные гены. Я буду сравнивать координаты лишь экзонов, потому что программа AUGUSTUS предсказывает с помощью параметров, которые в интронах будут как не в кодирующих последовательностях.
AUGUSTUS parameter project identifier: arabidopsis Genome file: cont.fasta User set UTR prediction:true Report genes on: both strands Alternative transcripts:few Allowed gene structure:predict any number of (possibly partial) genes Ignore conflictes with other strands: false |
Был выбран arabidopsis как наиболее близкий таксономически к исследуемому лотосу из предлагаемых вариантов: Arabidopsis thaliana, Solaneum lycopersicum (томат), Triticum/wheat (пшеница мягкая), Zea mays (Кукуруза сахарная). Координаты экзонов из Genbank: cds. Анализ проведен с помощью программы compar.py, алгоритм работы программы для сравнения такой же как и для прокариот в 11 практикуме, а также подробно описан в комментариях.
Таблица 1. Оценка предсказания AUGUSTUS (сравнение реальных генов, т.е. аннотации Genbank с предсказания | |||||||
Число генов с совпадащими координатами | Процент верно предсказанных генов | Число генов с несовпадающим началом | Процент таких генов | Число генов с несовпадающим концом | Процент таких генов | Число генов, ни один конец которых не предсказан AUGUSTUS | Процент таких генов |
100 | 52,91% | 15 | 7,94% | 23 | 12,17% | 51 | 26,98% |
Процент предсказания сильно ниже, на целых 20%, чем у программы Prodigal для прокариот, но и гены (экзоны в данном случае) у эукариот предсказывать сложнее. Однако, проблема еще в том, что огромное число ложных предсказаний, т.е. лишних в AUGUSTUS, их больше в разы, чем верно предсказанных, что полностью сводит на нет эффективность этой программы для предсказания экзонов эукариот. Для гена, изображенного на Рис.1., предсказано лишь 4 экзона из 12, и в разы больше лишних предсказаний. Эти различия объясняются всей спецефичностью (а точнее низкой эффективностю) программы.
©Карань Анна, 2015